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Применение нечетких 

моделей когнитивных знаний 
восприятия изображения в задаче 
локализации строк текста 


В статье описываются знания когнитивной психологии о первичной обработке информации в зрительной 
системе. Вводится математическое описание этих знаний с помощью нечетких моделей (модель ганглиозной 
клетки, модель клетки латерального коленчатого тела, модели клеток первичной зрительной коры). 
Приводятся результаты применения этих моделей для решения задачи локализации строк текста. 


Введение 


Проникновение компьютерного зрения в основные сферы человеческой деятель- 
ности привело к ряду задач, связанных с обработкой и анализом изображений, конечной 
целью которых является распознавание объекта. Решение последней задачи, в свою 
очередь, включает ряд таких этапов, как восприятие поля зрения, сегментация, норма- 
лизация выделенных объектов, распознавание [1]. При выполнении каждого из этапов 
применяются различные методы. В источниках [1-3] предложены классификации ос- 
новных методов обработки и распознавания изображений. Среди них такие средства, 
как линейный дискриминантный анализ, факторный анализ, фильтры, метод главных 
компонент, скрытые Марковские модели, вейвлет-преобразования, нейронные сети и 
другие. 

Каждый из методов имеет определенную область применения, которая зависит 
от характера различий входных и эталонных изображений, от помеховой обстановки 
в поле зрения, требований к объемам вычислений и скорости принятия решений. Объе- 
мы цифровой визуальной информации увеличиваются, меняются условия распознавания, 
и современные системы требуют более глубокого интеллектуального анализа. Поэтому 
для обработки изображения исследуется возможность применения методов когнитивных 
наук [4-6]. 

В когнитивной психологии на основе наблюдений за человеком за длительный 
период предложны и апробированы экспериментально модели организации практически 
всех когнитивных функций человека: восприятие зрительной, звуковой информации, 
организация памяти разных уровней [7-9]. 

Эти знания дают возможность моделировать основы биологического зрения и 
применять полученные модели для обработки изображения с учётом особенностей 
восприятия человека. В данной статье рассматривается использование когнитивных 
моделей для решения задачи локализации строк текста на изображении. 
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Постановка задачи 


Задача локализации строк текста на странице изображения ставится следующим 
образом. Пусть имеется изображение текста в градациях серого цвета 8 бит. Необхо- 
димо определить ориентацию (угол наклона) и ширину строк текста, а также данные 
о местоположении строк на изображении. Для анализа изображения применить метод, 
основанный на знаниях когнитивной психологии. 

Знания когнитивной психологии 

Если бросить мимолетный взгляд на изображение, не фиксируя взгляд на деталях, 
то происходит восприятие наиболее простых (укрупненных) паттернов в рассматривае- 
мой задаче строк текста, где строки — это чередующиеся полосы одного направления 
и приблизительно одной ширины. Так происходит, если изображение попадает в об- 
ласть периферического зрения, а также, если смотреть на изображение мимолетом или 
издалека. После проецирования изображения на сетчатку в ней происходят такие 
процессы: 

1. Первые фоторецепторы — палочки и колбочки — через промежуточные бипо- 
лярные клетки активизируют определенные рецептивные поля ганглиозных клеток, 
которые могут быть типа «ОМ» или «ОЕЕ». Для некоторых ганглиозных клеток, если 
свет попадает на маленькую область сетчатки, будет отмечаться увеличение частоты 
генерации разрядов (ОМ-центр). Но если свет падает на область вокруг этого чувстви- 
тельного центра, самопроизвольная частота генерации разрядов снижается. Существуют 
также ганглиозные клетки, у которых самопроизвольная частота разрядов снижается, 
когда свет попадает в центр (ОЕЕ-центр), и увеличивается, когда свет падает в окру- 
жающую их область. Эти клетки называют еще релейными [7]. Множество активных 
ганглиозных клеток образует первую «проекцию» изображения. 

2. Далее, большинство аксонов ганглиозных клеток образуют синаптические свя- 
зи с клетками латерального коленчатого тела (ЛКТ), рецептивные поля которых очень 
похожи на рецептивные поля ганглиозных клеток сетчатки: имеют центральные «зоны 
включения» и периферийные «зоны выключения» или наоборот. Помимо этого клетки 
ЛКТ отличаются размерами и делятся на две группы: парвоцеллюлярные и магноцел- 
люлярные клетки [9]. 

3. ВЛКТ первая «проекция» изображения становится пульсирующей [10]. Сразу 
же после саккады' в ЛКТ формируется ретинотопическая карта, которая передается 
в первичную зрительную кору. Диаметр рецептивных полей уменьшается и на основе 
его формируются новые ретинотопические карты. До очередного скачка зрительная 
кора перерабатывает данные, полученные из ЛКТ. 

4. Для возбуждения клеток зрительной коры требуется более тонкий механизм, 
что отражается на анатомических особенностях самих клеток и на сигналах, необхо- 
димых для их возбуждения. Существует несколько типов этих клеток: простые клетки 
реагируют только на линейные сегменты, ориентированные определенным образом; 
сложные клетки требуют движения в определенном направлении; гиперсложные клетки 
требуют, чтобы находящиеся внутри их рецептивных полей стимулы были определен- 
ной длины. Кроме этого известно [7], [9], что клетки, реагирующие на одну ориентацию, 
формируют собой колонку зрительной коры (рис. 1). При этом рецептивные поля 


1 > 
Движения глаз, переводящие точку фиксации с одного участка изображения на другои, исполь- 
зуемые преимущественно для обследования и изучения поля зрения, а также для того, чтобы образы 
селективно отобранных деталей визуальных стимулов оказались на центральной ямке. 
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прилегающих клеток имеют другие ориентационные предпочтения, которые изменя- 
ются постепенно. Таким образом, среди множества ориентационных колонок на полосы 
(строки) текста наиболее активно проявит себя одна колонка (или группа смежных) 


определенной ориентации. 


Колонки 


И ОО 


—| — ММ НИЕМие 

—|— мини ИМИ ии Слои коры 
—|-ыииНии ии ||| | "оловного 
—— мини мМ и 

= — ИИА ии ии 

—| + МАННЕЕННИМИ Ми “= 

0 90° 180° 


Рисунок 1 — Колонки клеток с разными ориентационными предпочтениями 


Для применения этих знаний опишем их с помощью нечетких моделей. 


Формальное описание моделей 


Модель ганглиозной клетки 


Представим исходное пиксельное поле Р в виде множества клеток К;. Каждая 
клетка сформирована на множестве пикселей {р} начального изображения, которые 
характеризуются величиной яркости / е [0,1]. Модель клетки, состоящая из ядра 
РК е {РА} с радиусом АК и полости Рсе (ре; с радиусом Кс, показана на рис. 2. 


полость 


ядро 


множество пикселей 


Рисунок 2 — Модель релейной клетки и ее характеристики 


Для каждой из клеток К, необходимо определить принадлежность к каждому из 
типов «ОМ» или «ОЕЕ». Поскольку фрагменты изображения не будут однозначно со- 
ответствовать приведенным типам, то принадлежность к конкретному типу будет 
иметь нечеткий характер. Тогда характеристиками каждой клетки являются функция 


уверенности /4(0;), которая показывает величину принадлежности К; клетки к 


типу «включено» (ОМ), и функция уверенности и, (ф;) ‚ которая показывает величи- 


ну принадлежности К) клетки к типу «выключено» (ОЕЕ). Функции принадлежности 


Ом 


аа О дляб, < 0,5; 
Нок 1) = 0, и 9. >0,5; 
где б = (7+ Хью) +, 
1 5 й й 5 


и (0; ий, (ф;) определяются с помощью выражения (1): 


О дляф, < 0,5; 


Мове фу) = (1) 


Ф; дляф, > 0,5, 
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Величина Х»ь Показывает степень насыщенности ядра белым, а Дь. степень 
насыщенности белым цветом полости и рассчитывается как 


У Л(р. -п. ши (ро) 


РЕК 
Яв= 
д.п 
где АЕ {РК, Рс}, п — количество пикселей области ^, а величина 6 отвечает за контраст- 


ый 


ность изображения и рассчитывается по формуле б = пах{ (р - пп {РФ}. 


7 7 7 7 


Модель клетки ЛКТ 
Математическая модель клеток данного уровня клеток — это есть выражение (1), 
но с изменением размеров АК и Кс, следующим образом: АЮК’=рВ-А и Кс’= 


= В. Кс, где для парвоцеллюлярных клеток р <1, а для магноцеллюлярных клеток 


ВЫ 


Модель клеток первичной зрительной коры 

Поскольку для активизации клеток этого уровня необходима активность группы 
смежных релейных клеток [8], то введем понятие детектора. Совокупность смежных 
клеток показана на рис. 3. 


Рисунок 3 — Совокупность смежных клеток 


Тогда модель детектора — это выражение 
Ре —< Ка, в,,6(Р")>, 2) 
где К” =< К°’? КАК К 2 >; с, — угол ориентации от 0° до 175°; ®-— 


* 
ширина детектора, определяемая как ‹« = АК; @ -— длина детектора, определяемая ко- 
личеством клеток, смежных К“”, но не менее 4; 0(О”) — функция уверенности на- 
личия детектора, вычисляемая по формуле: 
0, если Пик» 0 


1е1...(" 


= (3) 
=. У ИСК, если [ и(К‚)>0, 


ых а..." 
где 4(К;) вычисляется по формулам (1). 
На одном проведенном луче может быть несколько детекторов. Пусть коли- 
чество этих детекторов будет равно и,. Тогда множество всех детекторов будет 


0" ={0;}, /ЕТ...п, ‚, определяемых выражением (2). 


На основе понятия детектора опишем модель различных видов клеток зритель- 
ной коры. 
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Так, простая клетка 5”, реагирующая только на определенную ориентацию, опи- 
сывается выражением: 


5“ =< К“, а, 0,6,6(5")>, (4) 
где (>20, а5(5“)= пиа {6(2#)}. 
ТЕ...Пы 


Сложные клетки затронуты не будут, поскольку они реагируют на движение, а 
в данной работе рассматривается обработка статического изображения. 

Гиперсложные клетки зрительной коры так же, как и простые, чувствительны к 
направлению сигнала, но существенной их особенностью является реакция на опре- 


ГА 
деленную длину (. Поэтому гиперсложная клетка С” может быть описана выра- 
жением: 


С°" =< К“, щ,0,0,6(0“”') >, где 5(0“") = 6(°). (5) 
В одном направлении с гиперсложных клеток С“” одной длины 4 может быть 
( 
количество то. Тогда множество всех гиперсложных клеток будет описано С” = 


= 1Е!1...т,. Но также могут быть длины 4,,6,,...(.. Тогда множество 


2 


[. 
гиперсложных клеток, реагирующих на определенные длины, выражается так С””' = 
О те а, ЛЕ 

В итоге можно построить модель изображения в виде множества ориентацион- 
ных колонок, где каждая колонка описывается выражением: 
р 
С" = 15°, {6“ и}, |, а =0,5,10...175. (6) 
Модель представления изображения 


Тогда модель «проекции» изображения, то есть ретинотопической карты опи- 
сывается выражением: 


М® =< {С}, @,А(М®)>, (7) 
где а - угол ориентации от 0° до 175°; ®-— ширина детектора, определяемая как: @= 
= АК; д(М^) — функция уверенности наличия наибольшего количества гиперсложных 
клеток наибольшей длины, вычисляемая по формуле: 


(М®) = Б Ма. (8) 


@? 


где А, — величина, отображающая, насколько все активные релейные клетки способст- 
вовали активизации гиперсложных клеток; А, — среднее значение уверенности всех 


гиперсложных клеток шириной @; и - угол ориентации от 0° до 175°, выбранный на 
множестве ориентационных колонок С”. 


Тогда А, определяется как: д =—— 


[о 


где и^ — количество активных ганглиозных клеток К® с размером ядра № =@; 


а 0, 
п° `` количество активных ганглиозных клеток К” с размером ядра АК = @ ‚ активи- 


зировавших гиперсложные клетки {С“””*},. 
1 а,( ‚© 
В свою очередь, Я, определяется как 4, = = 2.2.5 в 
а 11 


где т, — общее количество гиперсложных клеток одного направления, а угол @ оп- 
ределяется из выражения / . = тах {тах {/, } }, 
(0) а 


1 р ь . 
где | = ле" определяется для и от 0° до 175°. 
т = 
а Л 1 
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После определения для каждой ретинотопической карты М“ ее функции уве- 
ренности нужно выбрать карту с наибольшей уверенностью. Тогда гиперсложные 


клетки С” этой карты будут соответствовать полосам шириной @ под углом @ на 


изображении, то есть предполагаемым строкам. 


Результаты исследований и выводы 


Для проведения экспериментов локализации строк текста было подобрано около 
80 графических файлов формата ВМР с градацией серого 8 бит. Среди тестируемых 
файлов были фрагменты текста отсканированных газет, журналов, книг, а также спам- 
изображения и файлы, полученные как копии экрана. Высота строк на изображениях 
колебалась от 8 до 35 пикселей, угол наклона — от 0° до 175°. 

На рис. 4а показан пример изображения, на котором нет преобладания линий 
одной ориентации, поэтому на рис. 46 график демонстрирует скачкообразную дина- 
мику и дальнейший поиск нецелесообразен. 


Г] 
РАК < | и 


8 9 10 11 12 13 14 15 16 


а) исходное изображение № 2 6) неоднозначный выбор приоритетной 
ориентации 


Рисунок 4 — Примеры применения предлагаемых моделей 


На рис. 5а представлен пример изображения со строками под углом 165°. Гра- 
фик на рис. 56 показывает, что практически при всех размерах клетки преобладает 


приоритет ориентации 165°. Дальнейшее моделирование направлено на определение 
оптимальной ширины полос (высоты строк). На рис. 5в видно, что наибольшая уве- 
ренность полос получается при ширине 11 пикселей. На рис. 5г показано покрытие 
изображения клетками согласно выбранной ориентации и ширины. На основе дан- 
ных о местоположении клеток следует локализация предполагаемых строк. Другие 
эксперименты по реализации данной модели приведены в [11]. 


ф [24 
"ов О | ини 17 РРР ЧИ 
т О 
ск 175 
2507 5 ево торм ЕВЕ ИВИС ИИ ЗН 
куче" мые Ре” ерактое 
дитей"? дз У уз — 
Е а 150 
%У кв для а 
06а совы 150 
о Ы 14 
сл\а 140 - — г 
ве 8 9 10 1 12 13 14 45 
а) исходное изображение № 1 6) однозначный выбор приоритетной 
ориентации 
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Ам“) 


| с ани" 


8 9 10 11 12. 13 14 15 
в) однозначный выбор оптимальной г) результат локализации 
ширины 


Рисунок 5 — Примеры применения предлагаемых моделей 


Таким образом, по результатам работы можно сделать следующие выводы: 
формализованы этапы первичной обработки информации в зрительной системе с 
помощью нечетких моделей; 
— описана модель представления изображения текста со строками; 
— введены и апробированы характеристики определения ориентации и ширины строк. 
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А.О. Карат, О.Е; П’ятикоп 

Застосування нештких моделей когнтивних знань сприйняття зображення 

в задач! локалзацй рядкв 

У стати описуються знання когн!тивно! психологи про первинну обробку 1нформаци в зоровйй системи. 
Вводиться математичний опис цих знань за допомогою нечтких моделей (модель гангл1озно! клтки, 
модель клигки латерального кол1нчастого пла, модел! клток первинно! зорово! кори). Наводяться результати 
застосування цих моделей для вирипення задач! локалзаци рядюв тексту. 


А.А. Кагот, Е.Е. Руанкор 

АррИсабоп о! Еи77у Моде оЁ Сосшйуе Кпо\едое Регсерйоп оГап Ппазсе ш ТазК оЁ Зато ГосаН7авоп 
ТБе агафе 4езстЬез фе Кпо\еаее оЁ соршауе рзуспою?эу оп Фе ргипагу шЮгтаноп ргосеззте ш Фе \15а1 
зубет. А таетайса] Чезсирйоп оЁ 1$ Кпо\едее Бу изше Ёа7ху то4е!5 (то4е| гапоПоп сеП$з, се оЁ ве 
тосе! |афега] септсиае писТеиз, се!]$ оЁа то4е| ргипагу у15иа| соцех 1$ ещегеа). ТБе гези $ оЁ арр!уш? 
Фезе пло4е1$ 1ю зо[уе рго ет о# Ппе 1осайхайоп п {ех{ аге ргезеще4. 
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